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摘要 
本 文 是 通过 Python 的 re 模块 来 使 用 正则 表达 式 的 一 个 入 门 教程 ， 和 库 参 考 手册 的 对 应 章节 相 
比 ， 更 为 浅显 易 懂 、 循 序 渐进 。 


本 文 可 以 从 http://www.amk.ca/python/howto 捕获 


Python 自 1.5 版 本 起 增加 了 re 模块 ， 它 提供 Perl 风格 的 正则 表达 式 模式 。Python 1.5 之 前 版 
本 则 是 通过 regex 模块 提供 Emacs 风格 的 模式 。Emacs 风格 模式 可 读 性 稍 差 些 ， 而 且 功能 
也 不 强 ， 因 此 编写 新 代码 时 尽量 不 要 再 使 用 regex 模块 ， 当 然 偶 尔 你 还 是 可 能 在 老 代 码 里 发 
现 其 踪影 。 


就 其 本 质 而 言 ， 正 则 表达 式 〈 或 RE) 是 一 种 小 型 的 、 高 度 专业 化 的 编程 语言 ，( 在 Python 
中 ) 它 内 获 在 Python 中 ， 并 通过 re 模块 实现 。 使 用 这 个 小 型 语言 ， 你 可 以 为 想 要 匹配 的 相应 
字符 串 集 指定 规则 ; 该 字符 串 集 可 能 包含 英文 语句 、e-mail 地 址 、TeX 命 令 或 任何 你 想 搞 定 的 
东西 。 然 后 你 可 以 问 诸 如 "这 个 字符 串 匹 配 该 模式 吗 ? "或 "在 这 个 字符 串 中 是 否 有 部 分 匹配 该 
模式 呢 ?”。 你 也 可 以 使 用 RE 以 各 种 方式 来 修改 或 分 割 字符 串 。 


正则 表达 式 模式 被 编译 成 一 系列 的 字 节 码 ， 然 后 由 用 C 编写 的 匹配 引擎 执行 。 在 高 级 用 法 
中 ， 也 许 还 要 仔细 留意 引擎 是 如 何 执行 给 定 RE ， 如 何以 特定 方式 编写 RE 以 令 生 产 的 字 节 码 
运行 速度 更 快 。 本 文 并 不 涉及 优化 ， 因 为 那 要 求 你 已 充分 掌握 了 匹配 引擎 的 内 部 机 制 。 


正则 表达 式 语 言 相对 小 型 和 受 限 (功能 有 限 ) ， 因 此 并 非 所 有 字符 串 处 理 都 能 用 正则 表达 式 
完成 。 当 然 也 有 些 任 务 可 以 用 正则 表达 式 完成 ， 不 过 最 终 表达 式 会 变 得 异常 复杂 。 碰 到 这 些 
情形 时 ， 编 写 Python 代码 进行 处 理 可 能 反而 更 好 ; 尽管 Python 代码 比 一 个 精巧 的 正则 表达 
式 要 慢 些 ， 但 它 更 易 理 解 。 


< A ~ 
简单 模式 

我 们 将 从 最 简单 的 正则 表达 式 学 习 开 始 。 由 于 正则 表达 式 常用 于 字符 串 操作 ， 那 我 们 就 从 最 
常见 的 任务 : 字符 匹配 下 手 。 

有 关 正 则 表达 式 底层 的 计算 机 科学 上 的 详细 解释 (确定 性 和 非 确定 性 有 限 自 动机 ) ， 你 可 以 
查阅 编写 编译 器 相关 的 任何 教科 书 。 


字符 匹配 


大 多 数字 母 和 字符 一 般 都 会 和 自身 匹配 。 例 如 ， 正 则 表达 式 test 会 和 字符 串 *test 完 全 匹配 。 
(你 也 可 以 使 用 大 小 写 不 敏感 模式 ， 它 还 能 让 这 个 RE 匹配 “Test" 或 “TEST”; 稍 后 会 有 更 多 解 
释 。) 


这 个 规则 当然 会 有 例外 ; 有 些 字 符 比 较 特殊 ， 它 们 和 自身 并 不 匹配 ， 而 是 会 表明 应 和 一 些 特 
殊 的 东西 匹配 ， 或 者 它们 会 影响 到 RE 其 它 部 分 的 重复 次 数 。 本 文 很 大 篇 幅 专 门 讨论 了 各 种 
元 字符 及 其 作用 。 


这 里 有 一 个 元 字符 的 完整 列表 ; 其 含义 会 在 本 指南 余下 部 分 进行 讨论 。 


A ea NI) 


我 们 首先 考察 的 元 字符 是 "[" 和 "J"。 它 们 常用 来 指定 一 个 字符 类 别 ， 所 谓 字符 类 别 就 是 你 想 匹 
配 的 一 个 字符 集 。 字 符 可 以 单个 列 出 ， 也 可 以 用 “-" 号 分 隔 的 两 个 给 定 字符 来 表示 一 个 字符 区 
间 。 例 如 ，[abc] 将 匹配 "a", "b", 或 "c" 中 的 任意 一 个 字符 ; 也 可 以 用 区 间 [a-c] 来 表示 同一 字符 
集 ， 和 前 者 效果 一 致 。 如 果 你 只 想 匹 配 小 写字 母 ， 那 么 RE 应 写成 [a-z]. 


元 字符 在 类 别 里 并 不 起 作用 。 例 如 ，[akm$] 将 匹配 字符 "a", "k", "m", 或 "$" 中 的 任意 一 
个 ; "$" 通 常用 作 元 字符 ， 但 在 字符 类 别 里 ， 其 特性 被 除去 ， 恢 复 成 普通 字符 。 


| ， 


你 可 以 用 补 集 来 匹配 不 在 区 间 范 围 内 的 字符 。 其 做 法 是 把 "" 作 为 类 别 的 首 个 字符 ; 其 它 地 方 
的 "只 会 简单 匹配 "字符 本 身 。 例 如 ，? 将 匹配 除 "5" 之 外 的 任意 字符 。 


也 许 最 重要 的 元 字符 是 反 斜 杠 "\"。 做 为 Python 中 的 字符 串 字 母 ， 反 斜 杠 后 面 可 以 加 不 同 的 字 
符 以 表示 不 同 特殊 意义 。 它 也 可 以 用 于 取消 所 有 的 元 字符 ， 这 样 你 就 可 以 在 模式 中 匹配 它们 
了 。 举 个 例子 ， 如 果 你 需要 匹配 字符 中 或 咪 ， 你 可 以 在 它们 之 前 用 反 斜 杠 来 取消 它们 的 特殊 
意义 : [或 \。 


一 些 用 "Vv' 开始 的 特殊 字符 所 表示 的 预定 义 字符 集 通常 是 很 有 用 的 ， 象 数字 集 ， 字 母 集 ， 或 其 
它 非 空 字符 集 。 下 列 是 可 用 的 预 设 特殊 字符 : 


\d ”匹配 任何 十 进 制 数 ; 它 相 当 于 类 [0-9]。 

\D ”匹配 任何 非 数 字 字符 ; 它 相 当 于 类 [^0-9]。 

\s ”匹配 任何 空白 字符 ; 它 相 当 于 类 [ \t\n\r\f\v]。 

NS ”匹配 任何 非 空白 字符 ; 它 相 当 于 类 [A \t\n\r\f\v]。 
NAw 匹配 任何 字母 数字 字符 ; 它 相 当 于 类 [a-zA-Z0-9_]。 
\W 匹配 任何 非 字 母 数 字 字符 ; 它 相 当 于 类 [^a-zA-Z0-9_]。 


这 样 特殊 字符 都 可 以 包含 在 一 个 字符 类 中 。 如 ，[\s,.] 字 符 类 将 匹配 任何 宝 白 字符 或 "," 或 ""。 


本 节 最 后 一 个 元 字符 是 .。 它 匹配 除了 换行 字符 外 的 任何 字符 ， 在 alternate 模式 
(re.DOTALL) 下 它 甚 至 可 以 匹配 换行 。"." 通常 被 用 于 你 想 匹 配 “ 任 何 字符 "的 地 方 。 


重复 


正则 表达 式 第 一 件 能 做 的 事 是 能 够 匹配 不 定 长 的 字符 集 ， 而 这 是 其 它 能 作用 在 字符 串 上 的 方 

法 所 不 能 做 到 的 。 不 过 ， 如 果 那 是 正则 表达 式 唯一 的 附加 功能 的 话 ， 那 么 它们 也 就 不 那么 优 
秀 了 。 它 们 的 另 一 个 功能 就 是 你 可 以 指定 正则 表达 式 的 一 部 分 的 重复 次 数 。 

我 们 讨论 的 第 一 个 重复 功能 的 元 字符 是 。 并 不 匹配 字母 字符 “" ; 相反 ， 它 指定 前 一 个 字符 可 
以 被 匹配 零 次 或 更 多 次 ， 而 不 是 只 有 一 次 。 

举 个 例子 ，ca*t 将 匹配 "ct" (0 个 "a" 字符 ), "cat" (1 个 "a"), "caaat" (3 个 "a" 字符 ) 等 等 。RE 

引擎 有 各 种 来 自 C 的 整数 类 型 大 小 的 内 部 限制 ， 以 防止 它 匹配 超过 20 亿 个 "a" 字符 ; 你 也 许 

没有 足够 的 内 存 去 建造 那么 大 的 字符 串 ， 所 以 将 不 会 累计 到 那个 限制 。 

象 * 这 样 地 重复 是 “ 贪 焚 的 ”; 当 重 复 一 个 RE 时 ， 匹 配 引 擎 会 试 着 重复 尽 可 能 多 的 次 数 。 如 果 
模式 的 后 面部 分 没有 被 匹配 ， 匹 配 引擎 将 退回 并 再 次 尝试 更 小 的 重复 。 


一 步 步 的 示例 可 以 使 它 更 加 清晰 。 让 我 们 考虑 表达 式 albcd]*b。 它 匹配 字母 "a"， 零 个 或 更 多 
个 来 自 类 [bcd] 中 的 字母 ， 最 后 以 "b" 结尾 。 现 在 想 一 想 该 RE 对 字符 串 "abcbd" 的 匹配 。 


Step Matched Explanation 

1 a a 匹配 模式 

2 abcbd 引擎 匹配 [bcd]j*， 并 尽 其 所 能 匹配 到 字符 串 的 结尾 

3 Failure 引擎 尝试 匹配 b， 但 当前 位 置 已 经 是 字符 的 最 后 了 ， 所 以 失败 
4 abcb 退回 ，[bcd]#* 尝 试 少 匹配 一 个 字符 。 

5 Failure 再 次 尝 次 b， 但 在 当前 最 后 一 位 字符 是 "d" 。 

6 abc 再 次 退回 ，[bcd]#* 只 匹配 "bc"。 

7 abcb 再 次 尝试 b ， 这 次 当前 位 上 的 字符 正好 是 "b" 


RE 的 结尾 部 分 现在 可 以 到 达 了 ， 它 匹配 "abcb"。 这 证 明了 匹配 引擎 一 开始 会 尽 其 所 能 进行 匹 
配 ， 如 果 没 有 匹配 然后 就 逐步 退回 并 反复 尝试 RE 剩 下 来 的 部 分 。 直 到 它 退 回 尝 试 匹配 [bcd] 
到 零 次 为 止 ， 如 果 随 后 还 是 失败 ， 那 么 引擎 就 会 认为 该 字符 串 根本 无 法 匹配 RE 。 


另 一 个 重复 元 字符 是 +， 表 示 匹 配 一 或 更 多 次 。 请 注意 和 + 之 间 的 不 同 ; 匹配 零 或 更 多 次 ， 
所 以 可 以 根本 就 不 出 现 ， 而 + 则 要 求 至 少 出 现 一 次 。 用 同一 个 例子 ，catt 就 可 以 匹配 "cat" (1 
个 "a")，"caaat" (3 个 "a")， 但 不 能 匹配 "ct" 。 


还 有 更 多 的 限定 符 。 问 号 ? 匹配 一 次 或 零 次 ; 你 可 以 认为 它 用 于 标识 某 事物 是 可 选 的 。 例 
如 : home-?brew 匹配 "homebrew" 或 "home-brew"。 


最 复杂 的 重复 限定 符 是 {fm,n}( 注 意 m,n 之 间 不 能 有 空格 )， 其 中 m 和 nm 是 十 进 制 整数 。 该 限定 
符 的 意思 是 至 少 有 m 个 重复 ， 至 多 到 n 个 重复 。 举 个 例子 ，a/{1,3}b 将 匹配 "a/b"，"a/b" 和 
"a//Wb"。 它 不 能 匹配 "ab" 因为 没有 人 儿 杠 ， 也 不 能 匹配 "a/Wb" ， 因 为 有 四 个 。 

你 可 以 忽略 m 或 n ; 因为 会 为 缺失 的 值 假 设 一 个 合理 的 值 。 忽 略 m 会 认为 下 边界 是 0， 而 忽 
略 n 的 结果 将 是 上 边界 为 无 穷 大 -- 实际 上 是 先前 我 们 提 到 的 20 亿 ， 但 这 也 许 同 无 穷 大 一 样 。 
细心 的 读者 也 许 注意 到 其 他 三 个 限定 符 都 可 以 用 这 样 方式 来 表示 。 {0,} 等 同 于 ，f1,} 等 同 于 
+， 而 人 ,四则 与 ? 相同 。 如 果 可 以 的 话 ， 最 好 使 用 ，+， 或 ?。 很 简单 因为 它们 更 短 也 更 容易 
懂 。 


使 用 正则 表达 式 


现在 我 们 已 经 看 了 一 些 简单 的 正则 表达 式 ， 那 么 我 们 实际 在 Python 中 是 如 何 使 用 它们 的 呢 ? 
re 模块 提供 了 一 个 正则 表达 式 引 擎 的 接口 ， 可 以 让 你 将 REs 编译 成 对 象 并 用 它们 来 进行 匹 
配 。 


编译 正则 表达 式 


正则 表达 式 被 编译 成 Regexobject 实例 ， 可 以 为 不 同 的 操作 提供 方法 ， 如 模式 匹配 搜索 或 字 
符 串 蔡 换 。 


#python 

>>> import re 

>>> p = re.compile('ab*') 

>>> print p 

<_Sre,SRE_Pattern object at 0xb76e1a70> 


re.compile() 也 接受 可 选 的 标志 参数 ， 常 用 来 实现 不 同 的 特殊 功能 和 语法 变更 。 我 们 稍 后 将 查 
看 所 有 可 用 的 设置 ， 但 现在 只 举 一 个 例子 : 


#!python 
>>> p = re.compile('ab*', re.IGNORECASE) 


RE 被 做 为 一 个 字符 串 发 送 给 re.compile()。REs 被 处 理 成 字符 串 是 因为 正则 表达 式 不 是 
Python 语言 的 核心 部 分 ， 也 没有 为 它 创建 特定 的 语法 。 (应 用 程序 根本 就 不 需要 RES， 因 此 
没 必 要 包含 它们 去 使 语言 说 明 变 得 腑 肿 不 堪 。) 而 re 模块 则 只 是 以 一 个 C 扩展 模块 的 形式 来 
被 Python 包含 ， 就 象 Socket 或 zlib 模块 一 样 


将 REs 作为 字符 串 以 保证 Python 语言 的 简洁 ， 但 这 样 带 来 的 一 个 麻烦 就 是 象 下 节 标 题 所 讲 
的 。 


在 早期 规定 中 ， 正 则 表达 式 用 反 斜 杠 字符 ("\") 来 表示 特殊 格式 或 允许 使 用 特殊 字符 而 不 调用 
它 的 特殊 用 法 。 这 就 与 Python 在 字符 串 中 的 那些 起 相同 作用 的 相同 字符 产生 了 冲突 。 


让 我 们 举例 说 明 ， 你 想 写 一 个 RE 以 匹配 字符 串 wsection"， 可 能 是 在 一 个 LATEX 文件 查 

找 。 为 了 要 在 程序 代码 中 判断 ， 首 先 要 写 出 想 要 匹配 的 字符 串 。 接 下 来 你 需要 在 所 有 反 斜 杠 
和 其 它 元 字符 前 加 反 斜 杠 来 取消 其 特殊 意义 ， 结 果 要 匹配 的 字符 串 就 成 了 wsection"。 当 把 这 
个 字符 串 传 递 给 re.compile() 时 必须 还 是 \section"。 然 而 ， 作 为 Python 的 字符 串 实 值 (string 
literals) 来 表示 的 话 ，"\section" 中 两 个 反 斜 杠 还 要 再 次 取消 特殊 意义 ， 最 后 结果 就 变 成 

了 "\section"°。 


字符 阶段 
\section 要 匹配 的 字符 串 
\section 为 re.compile 取消 反 斜 杠 的 特殊 意义 
"\section" 为 wsection" 的 字符 串 实 值 (string literals) 取 消 反 斜 杠 的 特殊 意义 


简单 地 说 ， 为 了 匹配 一 个 反 针 杠 ， 不 得 不 在 RE 字符 串 中 写 \\， 因 为 正则 表达 式 中 必须 是 
,而 每 个 反 儿 杠 在 常规 的 Python 字符 串 实 值 中 必须 表示 成 "\。 在 RES 中 反 鲜 杠 的 这 个 重 
复 特性 会 导致 大 量 重 复 的 反 斜 枉 ， 而 且 所 生成 的 字符 串 也 很 难 懂 。 


解决 的 办 法 就 是 为 正则 表达 式 使 用 Python 的 raw 字符 串 表 示 ; 在 字符 事前 加 个 "rT" 反 斜 杠 就 
不 会 被 任何 特殊 方式 处 理 ， 所 以 rm \n" 就 是 包含 "和 "hn" 的 两 个 字符 ， 而 "\n" 则 是 一 个 字符 ， 
表示 一 个 换行 。 正 则 表达 式 通常 在 Python 代码 中 都 是 用 这 种 raw 字符 串 表 示 。 
常规 字符 串 Raw 字符 串 
"ab*" r"ab*" 
"\section" r"\section" 


"wt\s+\1" r"\w+\s+\1" 


执行 匹配 


一 旦 你 有 了 已 经 编译 了 的 正则 表达 式 的 对 象 ， 你 要 用 它 做 什么 呢 ? RegexObject 实例 有 一 些 
方法 和 属性 。 这 里 只 显示 了 最 重要 的 几 个 ， 如 果 要 看 完整 的 列表 请 查阅 Python Library 
Reference 


方法 /属性 作用 

match() 决定 RE 是 否 在 字符 串 刚 开始 的 位 置 匹配 

search() 扫描 字符 串 ， 找 到 这 个 RE 匹配 的 位 置 

findall() 找到 RE 匹配 的 所 有 子囊 ， 并 把 它们 作为 一 个 列表 返回 
finditer() 找到 RE 匹配 的 所 有 子囊 ， 并 把 它们 作为 一 个 迭代 器 返回 


如 果 没 有 匹配 到 的 话 ，match() 和 search() 将 返回 None。 如 果 成 功 的 话 ， 就 会 返回 一 个 
Matchobject 实例 ， 其 中 有 这 次 匹配 的 信息 : 它 是 从 哪里 开始 和 结束 ， 它 所 匹配 的 子 串 等 
你 可 以 用 采用 人 机 对 话 并 用 re 模块 实验 的 方式 来 学 习 它 。 如 果 你 有 Tkinter 的 话 ， 你 也 许可 

以 考虑 参考 一 下 Tools/scripts/redemo.py， 一 个 包含 在 Python 发 行 版 里 的 示范 程序 。 


首先 ， 运 行 Python 解释 器 ， 导 入 re 模块 并 编译 一 个 RE : 


#!python 

Python 2.2.2 (#1, Feb 10 2003, 12:57:01) 
>>> import re 

>>> p = re.compile('[a-z]+') 

>>> p 

<_Sre,SRE_Pattern object at 80c3c28> 


现在 ， 你 可 以 试 着 用 RE 的 [a-z]+ 去 匹配 不 同 的 字符 串 。 一 个 空 字符 串 将 根本 不 能 匹配 ， 因 
为 + 的 意思 是 “一 个 或 更 多 的 重复 次 数 "。 在 这 种 情况 下 match() 将 返回 None， 因 为 它 使 解 
释 器 没有 和 输出。 你 可 以 明确 地 打印 出 match() 的 结果 来 弄 清 这 一 点 。 


#!python 

>>> p.match("") 

>>> print p.match("") 
None 


现在 ， 让 我 们 试 着 用 它 来 匹配 一 个 字符 串 ， 如 "tempo"。 这 时 ，match() 将 返回 一 个 
MatchObject。 因 此 你 可 以 将 结果 保存 在 变量 里 以 便 和 后 面 使 用 。 


#!python 

>>> m = p.match( 'tempo') 

>>> print m 

<_Sre,SRE_Match object at 80c4f68> 


现在 你 可 以 查询 Matchobject 关于 匹配 字符 串 的 相关 信息 了 。MatchObject 实例 也 有 几 个 方 


法 和 属性 ; 最 重要 的 那些 如 下 所 示 : 


方法 /属性 作用 
group() 返回 被 RE 匹配 的 字符 串 
start() 返回 匹配 开始 的 位 置 
end() 返回 匹配 结束 的 位 置 
span() 返回 一 个 元 组 包含 匹配 (开始 ,结束 ) 的 位 置 


试 试 这 些 方法 不 久 就 会 清楚 它们 的 作用 了 : 


#!python 

>>> m.group() 

'tempo' 

>>> m.start(), m.end() 
(09, 5) 

>>> m. span() 

(09, 5) 


group() 返回 RE 匹配 的 子囊 。start() 和 end() 返回 匹配 开始 和 结束 时 的 索引 。span() 则 用 单 
个 元 组 把 开始 和 结束 时 的 索引 一 起 返回 。 因 为 匹配 方法 检查 到 如 果 RE 在 字符 串 开 始 处 开始 
匹配 ， 那 么 start() 将 总 是 为 零 。 然 而 ， Regexobject 实例 的 search 方法 扫描 下 面 的 字符 串 


的 话 ， 在 这 种 情况 下 ， 匹 配 开始 的 位 置 就 也 许 不 是 零 了 。 


#!python 

>>> print p.match('::: message') 

None 

>>> m = p.search('::: message') ; print m 


<re.Matchobject instance at 80c9650> 
>>> m.group() 

'message' 

>>> m. span() 

(4, 11) 


在 实际 程序 中 ， 最 常见 的 作法 是 将 Matchobject 保存 在 一 个 变量 里 ， 然 后 检查 它 是 否 为 


None， 通 常 如 下 所 示 : 


#!python 

p= re.compile( ... ) 

m= p.match( 'string goes here' ) 
if m: 

print 'Match found: ', m.group() 
else: 


print 'No match 


两 个 Regexobject 方法 返回 所 有 匹配 模式 的 子囊。findall() 运 


回 一 个 匹配 字符 串 行 表 : 


#!python 

>>> p = re.compile('\d+') 

>>> p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping') 
E22 all '10'] 


findall() 在 它 返 回 结果 时 不 得 不 创建 一 个 列表 。 在 Python 2.2 中 ， 也 可 以 用 finditer() 方法 。 


#1!python 
>>> iterator = p.finditer('12 drummers drumming, 11 ... 10 ...') 
>>> iterator 
<callable-iterator object at Ox401833ac> 
>>> for match in iterator: 
print match.span() 
(09, 2) 
(22, 24) 
(29, 31) 


模块 级 函数 


你 不 一 定 要 产生 一 个 Regexobject 对 象 然后 再 调用 它 的 方法 ; re 模块 也 提供 了 顶级 函数 调用 
如 match()、search()、sub() 等 等 。 这 些 函 数 使 用 RE 字符 串 作 为 第 一 个 参数 ， 而 后 面 的 参数 
则 与 相应 Regexobject 的 方法 参数 相同 ， 返 回 则 要 么 是 None 要 么 就 是 一 个 Matchobject 的 
实例 。 


#!python 

>>> print re.match(r'From\s+', 'Fromage amk') 

None 

>>> re.match(r'From\s+', 'From amk Thu May 14 19:12:10 1998') 
<re.Matchobject instance at 80c5978> 


Under the hood, 这 些 函 数 简单 地 产生 一 个 RegexOject 并 在 其 上 调用 相应 的 方法 。 它 们 也 在 
缓存 里 保存 编译 后 的 对 象 ， 因 此 在 将 来 调用 用 到 相同 RE 时 就 会 更 快 。 


你 将 使 用 这 些 模 块 级 函数 ， 还 是 先 得 到 一 个 Regexobject 再 调用 它 的 方法 呢 ? 如 何 选择 依赖 
于 怎样 用 RE 更 有 效率 以 及 你 个 人 编码 风格 。 如 果 一 个 RE 在 代码 中 只 做 用 一 次 的 话 ， 人 
块 级 函数 也 许 更 方便 。 如 果 程 序 包含 很 多 的 正则 表达 式 ， 或 在 多 处 复 用 同一 个 的 话 ， 那 么 

全 部 定义 放 在 一 起 ， 在 一 段 代码 中 提前 编译 所 有 的 REs 更 有 用 。 从 标 on 

是 从 xmllib.py 文件 中 提取 出 来 的 : 


#!python 

ref = re.compile( ... ) 
entityref = re.compile( ... ) 
charref = re.compile( ... ) 
starttagopen = re.compile( ... ) 


我 通常 更 喜欢 使 用 编译 对 象 ， 甚 至 它 只 用 一 次 ， 但 很 少 人 会 像 我 这 样 做 (如 同一 个 纯粹 主义 
者 ) 。 


编译 标志 


编译 标志 让 你 可 以 修改 正则 表达 式 的 一 些 运行 方式 。 在 re 模块 中 标志 可 以 使 用 两 个 名 字 ， 一 
个 是 全 名 如 IGNORECASE， 一 个 是 缩写 ， 一 字母 形式 如 1。 (如 果 你 熟悉 Perl 的 模式 修改 ， 
一 字母 形式 使 用 同样 的 字母 ; 例如 re.VERBOSE 的 缩写 形式 是 re.X。) 多 个 标志 可 以 通过 按 
位 OR-ing 它们 来 指定 。 如 re.| | re.M 被 设置 成 1 和 M 标志 : 


DOTALL, S 使 . 匹配 包括 换行 在 内 的 所 有 字符 

IGNORECASE ,| 使 匹配 对 大 小 写 不 敏感 

LOCALE,L 做 本 地 化 识别 (locale-aware ) 匹配 

MULTILINE, M 多 行 匹 配 ， 影 响 ^ 和 $$ 

VERBOSE, X 能 够 使 用 REs 的 verbose 状态 ， 使 之 被 组 织 得 更 清晰 易 懂 
1IGNORECASE 


使 匹配 对 大 小 写 不 敏感 ; 字符 类 和 字符 串 匹 配 字母 时 忽略 大 小 写 。 举 个 例子 ，[A-Z] 也 可 以 匹 
配 小 写字 母 ，Spam 可 以 匹配 "Spam", "spam", 或 "spAM"。 这 个 小 写字 母 并 不 考虑 当前 位 
置 。 


L LOCALE 
影响 \w, \W, \b, 和 \B， 这 取决 于 当前 的 本 地 化 设置 。 


locales 是 C 语言 库 中 的 一 项 功能 ， 是 用 来 为 需要 考虑 不 同 语言 的 编程 提供 帮助 的 。 举 个 例 
子 ， 如 果 你 正在 处 理 法 文 文本 ， 你 想 用 \W+ 来 匹配 文字 ， 但 \w 只 匹配 字符 类 [A-Za-z] ; 它 并 
不 能 匹配 "@" 或 "G"。 如 果 你 的 系统 配置 适当 且 本 地 化 设置 为 法 语 ， 那 么 内 部 的 C 函数 将 告诉 
程序 "6" 也 应 该 被 认为 是 一 个 字母 。 当 在 编译 正则 表达 式 时 使 用 LOCALE 标志 会 得 到 用 这 些 
C 函数 来 处 理 \Ww 后 的 编译 对 象 ; 这 会 更 慢 ， 但 也 会 象 你 希望 的 那样 可 以 用 \W+ 来 匹配 法 文 文 
本 。 


M MULTILINE 
(此 时 ^ 和 $ 不 会 被 解释 ; 它们 将 在 4.1 节 被 介绍 .) 


使 用 "人 " 只 匹配 字符 串 的 开始 ， 而 $ 则 只 匹配 字符 串 的 结尾 和 直接 在 换行 前 《如果 有 的 话 ) 的 
字符 串 结尾 。 当 本 标志 指定 后 ，"" 匹配 字符 串 的 开始 和 字符 串 中 每 行 的 开始 。 同 样 的 ，$ 元 
字符 匹配 字符 串 结 尾 和 字符 串 中 每 行 的 结尾 (直接 在 每 个 换行 之 前 ) 。 


S DOTALL 


使 "" 特殊 字符 完全 匹配 任何 字符 ， 包 括 换行 ; 没有 这 个 标志 ，"." 匹配 除了 换行 外 的 任何 字 
符 。 


XVERBOSE 


该 标志 通过 给 予 你 更 灵活 的 格式 以 便 你 将 正则 表达 式 写 得 更 易于 理解 。 当 该 标志 被 指定 时 ， 
在 RE 字符 串 中 的 空白 符 被 忽略 ， 除 非 该 空白 符 在 字符 类 中 或 在 反 斜 杠 之 后 ; 这 可 以 让 你 更 
清晰 地 组 织 和 缩 进 RE。 它 也 可 以 允许 你 将 注释 写 入 RE， 这 些 注释 会 被 引擎 忽略 ; 注释 用 
"#" 号 来 标识 ， 不 过 该 符号 不 能 在 字符 串 或 反 斜 杠 之 后 。 


举 个 例子 ， 这 里 有 一 个 使 用 re.VERBOSE 的 RE ; 看 看 读 它 轻松 了 多 少 ? 


#!python 

charref = re.compile(r"""&[[]] # Start of a numeric entity reference|||here has 
( 

[0-9]+[^0-9] # Decimal form 


| 9[0-7]+[^0-7] # Octal form 
| x[0-9a-fA-F]+[^0-9a-fA-F] # Hexadecimal form 


) 
""", re.VERBOSE) 





没有 verbose 设置 ，RE 会 看 起 来 象 这 样 : 


#!python 

charref = re.compile("&#([0-9]+[^0-9]" 
"19[0-7]+[A0-7]" 
"|x[0-9a-fA-F]+[^0-9a-fA-F])") 


在 上 面 的 例子 里 ，Python 的 字符 串 自 动 连接 可 以 用 来 将 RE 分 成 更 小 的 部 分 ， 但 它 比 用 
re.VERBOSE 标志 时 更 难 懂 


更 多 模式 功能 


到 目前 为 止 ， 我 们 只 展示 了 正则 表达 式 的 一 部 分 功能 。 在 本 节 ， 我 们 将 展示 一 些 新 的 元 字符 
和 如 何 使 用 组 来 检索 被 匹配 的 文本 部 分 。 


1 


多 的 元 字符 
还 有 一 些 我 们 还 没 展示 的 元 字符 ， 其 中 的 大 部 分 将 在 本 节 展 示 。 


剩 下 来 要 讨论 的 一 部 分 元 字符 是 零 帘 界定 符 (zero-width assertions) 。 它 们 并 不 会 使 引擎 在 
处 理 字 符 串 时 更 快 ;相反 ， 它 们 根本 就 没有 对 应 任何 字符 ， 只 是 简单 的 成 功 或 失败 。 举 个 例 
子 ，\b pe ln (assertions) ， 这 个 位 置 根本 就 不 会 被 \b 
改变 。 这 意味 着 零 宽 界定 符 (zero-width assertions ) 将 永远 不 会 被 重复 ， 因 为 如 果 它 们 在 给 
， 那么 它们 很 明显 可 以 被 匹配 无 数 次 。 


可 选项 ， 或 者 "or" 操作 符 。 如 果 人 A 和 B 是 正则 表达 式 ，AIB Die seni "A" 或 "B" 的 
字符 串 。| 的 优先 级 非常 低 ， 是 为 了 当 你 有 多 字符 串 要 选择 时 能 适当 地 运行 。Crow|Servo 将 
匹配 "Crow" 或 "Servo", 而 不 是 "Cro", 一 个 "Ww" 或 一 个 "S", 和 "ervo"。 


为 了 匹配 字母 中 ， 可 以 用 |， 或 将 其 包含 在 字符 类 中 ， 如 旧 。 


人 


匹配 行 首 。 除 非 设置 MULTILINE 标志 ， 它 只 是 匹配 字符 囊 的 开始 。 在 MULTILINE 模式 里 ， 
它 也 可 以 直接 匹配 字符 事 中 的 每 个 换行 。 


例如 ， 如 果 你 只 希望 匹配 在 行 首 单词 "From"， 那 么 RE 将 用 ^From。 


#!python 

>>> print re.search('^From', 'From Here to Eternity') 
<re.Matchobject instance at 80c1520> 

>>> print re.search('^From', "Reciting From Memory') 
None 


$ 


匹配 行 尾 ， 行 尾 被 定义 为 要 么 是 字符 串 尾 ， 要 么 是 一 个 换行 字符 后 面 的 任何 位 置 。 


#!python 

>>> print re.search('}$', '{block}') 
<re.Matchobject instance at 80adfa8> 
>>> print re.search('}$', '{block} ') 
None 

>>> print re.search('}$', '{block}\n') 
<re.Matchobject instance at 80adfa8> 


匹配 一 个 "$"， 使 用 $ 或 将 其 包含 在 字符 类 中 ， 如 [和 $] 。 


\A 


只 匹配 字符 串 首 。 当 不 在 MULTILINE 模式 ，\A 和 和 实际 上 是 一 样 的 。 然 而 ， 在 MULTILINE 
模式 里 它们 是 不 同 的 ;WA 只 是 匹配 字符 串 首 ， 而 ^ 人 还 可 以 匹配 在 换行 符 之 后 字符 串 的 任何 位 
置 。 


\Z 
Matches only at the end of the string. 只 匹配 字符 串 尾 。 
\b 


单词 边界 。 这 是 个 零 宽 界 定 符 (zero-width assertions) 只 用 以 匹配 单词 的 词 首 和 词尾 。 单 词 
被 定义 为 一 个 字母 数字 序列 ， 因 此 词尾 就 是 用 空白 符 或 非 字 母 数 字符 来 标示 的 。 


下 面 的 例子 只 匹配 "class" 整个 单词 ; 而 当 它 被 包含 在 其 他 单词 中 时 不 匹配 。 


#!python 

>>> p = re.compile(r'\bclass\b') 

>>> print p.search('no class at all') 
<re.Matchobject instance at 80c8f28> 

>>> print p.search('the declassified algorithm') 
None 

>>> print p.search('one subclass is') 

None 


当 用 这 个 特殊 序列 时 你 应 该 记 住 这 里 有 两 个 微妙 之 处 。 第 一 个 是 Python 字符 串 和 正则 表达 式 
之 间 最 糟 的 冲突 。 在 Python 字符 囊 里 ，"\b" 是 反 斜 杠 字 符 ，ASCII 值 是 8。 如 果 你 没有 使 用 
raw 字符 串 时 ， 那 么 Python 将 会 把 \b" 转换 成 一 个 回 退 符 ， 你 的 RE 将 无 法 象 你 希望 的 那样 
匹配 它 了 。 下 面 的 例子 看 起 来 和 我 们 前 面 的 RE 一 样 ， 但 在 RE 字符 囊 前 少 了 一 个 "r"。 


#!python 

>>> p = re.compile('\bclass\b') 

>>> print p.search('no class at all') 
None 

>>> print p.search('\b' + "class' + '\b') 
<re.Matchobject instance at 80c3ee0> 


第 二 个 在 字符 类 中 ， 这 个 限定 符 (assertion) 不 起 作用 ，\b 表示 回 退 符 ， 以 便 与 Python 字符 


\B 


另 一 个 零 宽 界定 符 (zero-width assertions) ， 它 正好 同 \b 相反 ， 只 在 当前 位 置 不 在 单词 边界 
时 匹配 。 


分 组 


你 经 常 需要 得 到 比 RE 是 否 匹 配 还 要 多 的 信息 。 正 则 表达 式 常常 用 来 分 析 字 符 串 ， 编 写 一 个 
RE 匹配 感 兴 趣 的 部 分 并 将 其 分 成 几 个 小 组 。 举 个 例子 ， 一 个 RFC-822 的 头 部 用 ":" 隔 成 一 个 
头 部 名 和 一 个 值 ， 这 就 可 以 通过 编写 一 个 正则 表达 式 匹 配 整 个 头 部 ， 用 一 组 匹配 头 部 名 ， 另 
一 组 匹配 头 部 值 的 方式 来 处 理 。 


组 是 通过 "(" 和 ")" 元 字符 来 标识 的 。"(" 和 ")" 有 很 多 在 数学 表达 式 中 相同 的 意思 ; 它们 一 起 
把 在 它们 里 面 的 表达 式 组 成 一 组 。 举 个 例子 ， 你 可 以 用 重复 限制 符 ， 象 *, +, ?3, 和 {fm,n}， 来 
重复 组 里 的 内 容 ， 比 如 说 (ab)* 将 匹配 零 或 更 多 个 重复 的 "ab" 。 


#!python 

>>> p = re.compile('(ab)*') 

>>> print p.match('ababababab').span() 
(0, 10) 


组 用 "(" 和 ")" 来 指定 ， 并 且 得 到 它们 匹配 文本 的 开始 和 结尾 索引 ; 这 就 可 以 通过 一 个 参数 用 
group()、start()、end() 和 span() 来 进行 检索 。 组 是 从 0 开始 计数 的 。 组 0 总 是 存在 ; 它 就 
是 整个 RE， 所 以 Matchobject 的 方法 都 把 组 0 作为 它们 缺 省 的 参数 。 稍 后 我 们 将 看 到 怎样 
表达 不 能 得 到 它们 所 匹配 文本 的 span 。 


#!python 

>>> p = re.compile('(a)b') 
>>> m = p.match('ab') 

>>> m.group() 

DY 

>>> m.group(0) 

SY. 


小 组 是 从 左 向 右 计数 的 ， 从 1 开始 。 组 可 以 被 说 套 。 计 数 的 数值 可 以 通过 从 左 到 右 计算 打开 的 
括号 数 来 确定 。 


#!python 

>>> p = re.compile('(a(b)c)d') 
>>> m = p.match('abcd') 

>>> m.group(0) 

"abcd ' 

>>> m.group(1) 

"abc 

>>> m.group(2) 

Ly 


group() 可 以 一 次 输入 多 个 组 号 ， 在 这 种 情况 下 它 将 返 个 包含 那些 组 所 对 应 值 的 元 组 。 


#!python 
>>> m.group(2,1,2) 
(GD "abc ' ， 'b') 


The groups() 方法 返回 一 个 包含 所 有 小 组 字符 串 的 元 组 ， 从 1 到 所 含 的 小 组 号 。 


#!python 
>>> m.groups() 
('abc', 'b') 


模式 中 的 逆向 引用 允许 你 指定 先前 捕获 组 的 内 容 ， 该 组 也 必须 在 字符 串 当 前 位 置 被 找到 。 举 
个 例子 ， 如 果 组 1 的 内 容 能 够 在 当前 位 置 找到 的 话 ，\1 就 成 功 否 则 失败 。 记 住 Python 字符 囊 
也 是 用 反 斜 杠 加 数据 来 允许 字符 串 中 包含 任意 字符 的 ， 所 以 当 在 RE 中 使 用 逆向 引用 时 确保 
使 用 raw 字符 串 。 


例如 ， 下 面 的 RE 在 一 个 字符 串 中 找到 成 双 的 词 。 


#!python 

>>> p = re.compile(r'(\b\w+)\s+\1') 

>>> p.search('Paris in the the spring').group() 
"the the' 


象 这 样 只 是 搜索 一 个 字符 串 的 逆向 引用 并 不 常见 -- 用 这 种 方式 重复 数据 的 文本 格式 并 不 多 见 - 
- 但 你 不 久 就 可 以 发 现 它 们 用 在 字符 串 替 换 上 非常 有 用 。 


无 捕获 组 和 命名 组 


精心 设计 的 REs 也 许 会 用 很 多 组 ， 既 可 以 捕获 感 兴 趣 的 子囊 ， 又 可 以 分 组 和 结构 化 RE 本 
身 。 在 复杂 的 RES 里 ， 追 踪 组 号 变 得 困难 。 有 两 个 功能 可 以 对 这 个 问题 有 所 帮助 。 它 们 也 都 
使 用 正则 表达 式 扩展 的 通用 语法 ， 因 此 我 们 来 看 看 第 一 个 。 


Perl 5 对 标准 正则 表达 式 增加 了 几 个 附加 功能 ，Python 的 re 模块 也 支持 其 中 的 大 部 分 。 选 择 
一 个 新 的 单 按键 元 字符 或 一 个 以 "开始 的 特殊 序列 来 表示 新 的 功能 ， 而 又 不 会 使 Perl 正则 表 
达 式 与 标准 正则 表达 式 产生 混乱 是 有 难度 的 。 如 果 你 选择 "&" 做 为 新 的 元 字符 ， 举 个 例子 ， 老 
的 表达 式 认为 "&" 是 一 个 正常 的 字符 ， 而 不 会 在 使 用 \& 或 [&] 时 也 不 会 转 义 。 


Perl 开发 人 员 的 解决 方法 是 使 用 (?...) 来 做 为 扩展 语法 。"?" 在 括号 后 面 会 直接 导致 一 个 语法 
错误 ， 因 为 "?" 没有 任何 字符 可 以 重复 ， 因 此 它 不 会 产生 任何 兼容 问题 。 紧 随 "?" 之 后 的 字符 
指出 扩展 的 用 途 ， 因 此 (?=foo) 


Python 新 增 了 一 个 扩展 语法 到 Perl 扩展 语法 中 。 如 果 在 问号 后 的 第 一 个 字符 是 "P"， 你 就 可 

以 知道 它 是 针对 Python 的 扩展 。 目 前 有 两 个 这 样 的 扩展 : (?P<name>...) 定义 一 个 命名 组 ，(? 
P=name) 则 是 对 命名 组 的 逆向 引用 。 如 果 Perl 5 的 未 来 版 本 使 用 不 同 的 语法 增加 了 相同 的 功 

能 ， 那 么 re 模块 也 将 改变 以 支持 新 的 语法 ， 与 此 同时 为 了 兼容 性 的 目的 而 继续 保持 的 Python 
专用 语法 。 


现在 我 们 看 一 下 普通 的 扩展 语法 ， 我 们 回 过 头 来 简化 在 复杂 REs 中 使 用 组 运行 的 特性 。 因 为 
组 是 从 左 到 右 编号 的 ， 而 且 一 个 复杂 的 表达 式 也 许 会 使 用 许多 组 ， 它 可 以 使 跟踪 当前 组 号 变 
得 困难 ， 而 修改 如 此 复杂 的 RE 是 十 分 麻烦 的 。 在 开始 时 插入 一 个 新 组 ， 你 可 以 改变 它 之 后 
的 每 个 组 号 。 


首先 ， 有 时 你 想 用 一 个 组 去 收集 正则 表达 式 的 一 部 分 ， 但 又 对 组 的 内 容 不 感 兴趣 。 你 可 以 用 
一 个 无 捕获 组 : (3:...) 来 实现 这 项 功能 ， 这 样 你 可 以 在 括号 中 发 送 任 何其 他 正则 表达 式 。 


#!python 
>>> m = re.match("([abc])+", "abc") 
>>> m.groups() 


>>> m = re.match("(?:[abc])+", "abc") 
>>> m.groups() 


除了 捕获 匹配 组 的 内 容 之 外 ， 无 捕获 组 与 捕获 组 表现 完全 一 样 ; 你 可 以 在 其 中 放置 任何 字 
符 ， 可 以 用 重复 元 字符 如 "”" 来 重复 它 ， 可 以 在 其 他 组 (无 捕获 组 与 捕获 组 ) 中 诅 套 它 。 
(?:…) 对 于 修改 已 有 组 尤其 有 用 ， 因 为 你 可 以 不 用 改变 所 有 其 他 组 号 的 情况 下 添加 一 个 新 组 。 
捕获 组 和 无 捕获 组 在 搜索 效率 方面 也 没什么 不 同 ， 没 有 哪 一 个 比 另 一 个 更 快 。 


其 次 ， 更 重要 和 强大 的 是 命名 组 ; 与 用 数字 指定 组 不 同 的 是 ， 它 可 以 用 名 字 来 指定 。 


命令 组 的 语法 是 Python 专用 扩展 之 一 : (?P<name>...)。 名 字 很 明显 是 组 的 名 字 。 除 了 该 组 
个 名 字 之 外 ， 命 名 组 也 同 捕获 组 是 相同 的 。 Matchobject 的 方法 处 理 捕 获 组 时 接受 的 要 么 
是 表示 组 号 的 整数 ， 要 么 是 包含 组 名 的 字符 囊 。 命 名 组 也 可 以 是 数字 ， 所 以 你 可 以 通过 两 种 


过 


式 来 得 到 一 个 组 的 信息 : 


#!python 

>>> p = re.compile(r'(?P<word>\b\w+\b)') 

>>> m = p.search( '(((( Lots of punctuation )))'" ) 
>>> m.group('word') 

'Lots' 

>>> m.group(1) 

'Lots' 


命名 组 是 便于 使 用 的 ， 因 为 它 可 以 让 你 使 用 容易 记 住 的 名 字 来 代替 不 得 不 记 住 的 数字 。 这 里 
有 一 个 来 自 imaplib 模块 的 RE 示例 : 


#!python 

InternalDate = re.compile(r'INTERNALDATE "™' 

r'(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-， 
r'(?P<year>[0-9][0-9][0-9][0-9]) 

r' (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])” 

r' (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])" 

[Be 


很 明显 ， 得 到 m.group('zonem') 要 比 记 住 得 到 组 9 要 容易 得 多 。 


因为 北向 引用 的 语法 ， 象 (...)\1 这 样 的 表达 式 所 表示 的 是 组 号 ， 这 时 用 组 名 代替 组 号 自然 会 有 
差别 。 还 有 一 个 Python 扩展 : (?P=name) ， 它 可 以 使 叫 name 的 组 内 容 再 次 在 当前 位 置 发 
现 。 正 则 表达 式 为 了 找到 重复 的 单词 ，(\b\w+)\s+\1 也 可 以 被 写成 (?P<word>\bvw+)vs+(? 
P=word) : 


#!python 

>>> p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)') 
>>> p.search('Paris in the the spring').group() 
"he the' 


符 (zero-width assertion ) 是 前 向 界定 符 。 前 向 界定 符 包 括 前 向 肯定 界定 符 
符 ， 如 下 所 示 : 


前 向 肯定 界定 符 。 如 果 所 含 正则 表达 式 ， 以 ... 表示 ， 在 当前 位 置 成 功 匹 配 时 成 功 ， 否 则 失 
败 。 但 一 旦 所 含 表 达 式 已 经 党 试 ， 匹 配 引 擎 根本 没有 提高 ; 模式 的 剩余 部 分 还 要 尝试 界定 符 
的 右边 。 


前 向 否定 界定 符 。 与 肯定 界定 符 相 反 ; 当 所 含 表 达 式 不 能 在 字符 串 当 前 位 置 匹配 时 成 功 


通过 示范 在 哪 前 向 可 以 成 功 有 助 于 具体 实现 。 考 虑 一 个 简单 的 模式 用 于 匹配 一 个 文件 名 ， 并 
将 其 通过 "." 分 成 基本 名 和 扩展 名 两 部 分 。 如 在 "news.rc" 中 ，"news" 是 基本 名 ，"rc" 是 文件 
的 扩展 名 。 


匹配 模式 非常 简单 : 


.*[.].*$ 


注意 "" 需要 特殊 对 待 ， 因 为 它 是 一 个 元 字符 ; 我 把 它 放 在 一 个 字符 类 中 。 另 外 注意 后 面 的 $ 
添加 这 个 是 为 了 确保 字符 串 所 有 的 剩余 部 分 必须 被 包含 在 扩展 名 中 。 这 个 正则 表达 式 匹 配 
"foo.bar" ~、 "autoexec.bat"、"sendmail.cf" 和 "printers.conf"。 


现在 ， 考 虑 把 问题 变 得 复杂 点 ; 如 果 你 想 匹 配 的 扩展 名 不 是 "bat" 的 文件 名 ?一 些 不 正确 的 党 
试 : 


| | [Alo] > 


上 面 的 第 一 次 去 除 "bat" 的 尝试 是 要 求 扩展 名 的 第 一 个 字符 不 是 "b"。 这 是 错误 的 ， 因 为 该 模 
式 也 不 能 匹配 "foo.bar"。 


| EA) ens | EA oad 


当 你 试 着 修补 第 一 个 解决 方法 而 要 求 匹配 下 列 情况 之 一 时 表达 式 更 乱 了 : 扩展 名 的 第 一 个 字 
符 不 是 "b"; 第 二 个 字符 不 是 "a" ; 或 第 三 个 字符 不 是 史 。 这 样 可 以 接受 "foo.bar" 而 拒绝 
"autoexec.bat"， 但 这 要 求 只 能 是 三 个 字符 的 扩展 名 而 不 接受 两 个 字符 的 扩展 名 如 
"sendmail.cf'。 我 们 将 在 努力 修补 它 时 再 次 把 该 模式 变 得 复杂 。 


在 第 三 次 尝试 中 ， 第 二 和 第 三 个 字母 都 变 成 可 选 ， 为 的 是 允许 匹配 比 三 个 字符 更 短 的 扩展 
名 ， 如 "sendmail.cf"。 


该 模式 现在 变 得 非常 复杂 ， 这 使 它 很 难 读 懂 。 更 糟 的 是 ， 如 果 问 题 变化 了 ， 你 想 扩展 名 不 是 
"bat" 和 "exe"， 该 模式 甚至 会 变 得 更 复杂 和 混乱 。 


前 向 否定 把 所 有 这 些 裁剪 成 : 
.*[.](?!bat$).*$ 
前 向 的 意思 : 如 果 表 达 式 bat 在 这 里 没有 匹配 ， 党 试 模式 的 其 余部 分 ; 如 果 bat$ 匹配 ， 整 个 


模式 将 失败 。 后 面 的 $ 被 要 求 是 为 了 确保 象 "sample.batch" 这 样 扩展 名 以 "bat" 开头 的 会 被 
允许 。 


将 另 一 个 文件 扩展 名 排除 在 外 现在 也 容易 ; 简单 地 将 其 做 为 可 选项 放 在 界定 符 中 。 下 面 的 这 
个 模式 将 以 "bat" 或 "exe" 结尾 的 文件 名 排除 在 外 。 


.*[.](?!bat$|exe$).*$ 


修改 字符 串 


到 目前 为 止 ， 我 们 简单 地 搜索 了 一 个 静态 字符 囊 。 正 则 表达 式 通常 也 用 不 同 的 方式 ， 通 过 下 
面 的 Regexobject 方法 ， 来 修改 字符 串 。 


方法 /属性 作用 
split() 将 字符 串 在 RE 匹配 的 地 方 分 片 并 生成 一 个 列表 ， 
Sub() 找到 RE 匹配 的 所 有 子囊 ， 并 将 其 用 一 个 不 同 的 字符 串 蔡 换 


subn() 与 sub() 相同 ， 但 返回 新 的 字符 串 和 替换 次 数 


将 字符 囊 分 上 


Regexobject 的 split() 方法 在 RE 匹配 的 地 方 将 字符 串 分 片 ， 将 返回 列表 。 它 同 字 符 串 的 
split() 方法 相似 但 提供 更 多 的 定 界 符 ; split() 只 支持 空白 符 和 国定 字符 串 。 就 象 你 预料 的 那 
样 ， 也 有 一 个 模块 级 的 re.split() 函数 。 


split(string [, maxsplit = 0]) 


通过 正则 表达 式 将 字符 串 分 片 。 如 果 捕 获 括号 在 RE 中 使 用 ， 那么 它们 的 内 容 也 会 作为 结果 
列表 的 一 部 分 返回 。 如 果 maxsplit 非 零 ， 那 么 最 多 只 能 分 出 maxsplit 个 分 片 。 


你 可 以 通过 设置 maxsplit 值 来 限制 分 片 数 。 当 maxsplit 非 堆 时 ， 最 多 只 能 有 maxsplit 个 分 
片 ， 字 符 串 的 其 余部 分 被 做 为 列表 的 最 后 部 分 返回 。 在 下 面 的 例子 中 ， 定 界 符 可 以 是 非 数 字 
字母 字符 的 任意 序列 。 


#!python 

>>> p = re.compile(r'\W+') 

>>> p.split('This is a test, short and sweet, of split().') 

ins Latest short and sweet of plit | 
>>> p.split('This is a test, short and sweet, of split().', 3) 

['This', 'is', 'a', 'test, short and sweet, of split().'] 


有 了 时， 你 不 仅 对 定 界 符 之 问 的 文本 感 兴趣 ， 也 
分 


要 知道 定 界 符 是 什么 。 如 果 捕获 括号 在 RE 
中 使 用 ,那么 它们 的 值 也 会 当 作 列表 的 一 部 分 返回 


返回 。 比 较 下 面 的 调用 : 
#!python 

>>> p = re.compile(r'\W+') 

>>> p2 = re.compile(r'(\W+)') 

>>> p.split('This... is a test.') 

[emsee LS a est od 

>>> p2.split('This... is a test.') 

['This', ee Le lS 1 a 1 2 ES 和 | 


模块 级 函数 re.split() 将 RE 作为 第 一 个 参数 ， 其 他 一 样 。 


#!python 

>>> re.split('[\W]+', 'Words, words, words.') 
['Words', ‘'words', 'words', ''] 

>>> re.split('([\W]+)', 'Words, words, words.') 
[Word Se WOMSs /WORS | 
>>> re.split('[\W]+', 'Words, words, words.', 1) 
['Words', 'words, words.'] 


搜索 和 替换 


其 他 常见 的 用 途 就 是 找到 所 有 模式 匹配 的 字符 串 并 用 不 同 的 字符 串 来 替换 它们 。Ssub() 方法 提 
供 一 个 替换 值 ， 可 以 是 字符 串 或 一 个 函数 ， 和 一 个 要 被 处 理 的 字符 串 。 


sub(replacement, string[, count = 0]) 


返回 的 字符 串 是 在 字符 串 中 用 RE 最 左边 不 重复 的 匹配 来 蔡 换 。 如 果 模 式 没有 发 现 ， 字 符 将 
被 没有 改变 地 返回 。 


可 选 参 数 count 是 模式 匹配 后 替换 的 最 大 次 数 ; count 必须 是 非 负 整 数 。 缺 省 值 是 0 表示 替换 
所 有 的 匹配 。 


这 里 有 个 使 用 sub() 方法 的 简单 例子 。 它 用 单词 "colour" 替换 颜色 名 。 


#!python 

>>> p = re.compile( '(blue|lwhitel|red)') 

>>> p.sub( 'colour', 'blue socks and red shoes') 

"Colour socks and colour shoes' 

>>> p.sub( 'colour', 'blue socks and red shoes', count=1) 
"Colour socks and red shoes' 


subn() 方法 作用 一 样 ， 但 返回 的 是 包含 新 字符 囊 和 替换 执行 次 数 的 两 元 组 。 


#!python 

>>> p = re.compile( '(blue|lwhitelred)') 

>>> p.subn( 'colour', 'blue socks and red shoes') 
('colour socks and colour shoes', 2) 

>>> p.subn( 'colour', 'no colours at all') 

('no colours at all', 0) 


空 匹配 只 有 在 它们 没有 紧 挨 着 前 一 个 匹配 时 才 会 被 替换 掉 。 


#!python 

>>> p = re.compile('x*') 
>>> p.sub('-', 'abxd') 
'-a-b-d-' 


如 果 赫 换 的 是 一 个 字符 囊 ， 任 何在 其 中 的 反 斜 杠 都 会 被 处 理 。"\n" 将 会 被 转换 成 一 个 换行 
符 ，\r" 转 换 成 回 车 等 等 。 未 知 的 转 义 如 "" 则 保持 原样 。 逆 向 引用 ， 如 "6"， 被 RE 中 相应 的 
组 匹配 而 被 子 串 替换 。 这 使 你 可 以 在 替换 后 的 字符 串 中 插入 原始 文本 的 一 部 分 。 


这 个 例子 匹配 被 "和 中" 括 起 来 的 单词 "section"， 并 将 "section" 替换 成 "Subsection"。 


#!python 

>>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE) 

>>> p.sub(r'subsection{\1}','section{First} section{second}') 
'subsection{First} subsection{second}' 


还 可 以 指定 用 (?P<name>...) 语法 定义 的 命名 组 。"\g<name>" 将 通过 组 名 "name" 用 子囊 来 
匹配 ， 并 且 "\g<number>" 使 用 相应 的 组 号 。 所 以 \g<2>" 等 于 \2"， 但 能 在 替换 字符 串 里 含 
义 不 清 ， 如 "\g<2>0"。 ("\20" 被 解释 成 对 组 20 的 引用 ， 而 不 是 对 后 面 跟着 一 个 字母 "0" 的 
组 2 的 引用 。) 


#!python 


>>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE) 
>>> p.sub(r'subsection{\1}','section{First}') 


'subsection{First}'" 

>>> p.sub(r'subsection{\g<1>}', 'section{First}') 
'subsection{First}'" 

>>> p.sub(r'subsection{\g<name>}', 'section{First}') 
'subsection{First}' 


替换 也 可 以 是 一 个 甚至 给 你 更 多 控制 的 函数 。 如 果 替 换 是 个 函数 ， 该 函数 将 会 被 模式 中 每 一 
个 不 重复 的 匹配 所 调用 。 在 每 次 调 有 用时， 函数 会 被 传 入 一 个 Matchobject 的 对 象 作 为 参数 ， 
因此 可 以 用 这 个 对 象 去 计算 出 替换 字符 串 并 返回 它 。 


在 下 面 的 例子 里 ， 替 换 函 数 将 十 进 制 翻译 成 十 六 进 制 : 


#!python 

>>> def hexrepl( match ): 

3 "Return the hex string for a decimal number" 
value = int( match.group() ) 
return hex(value) 


>>> p = re.compile(r'\d+') 


>>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.') 
'Call QOxffd2 for printing, Oxc0O00 for user code.' 


当 使 用 模块 级 的 re.sub() 函数 时 ， 模 式 作 为 第 一 个 参数 。 模 式 也 许 是 一 个 字符 串 或 一 个 
Regexobject ; 如 果 你 需要 指定 正则 表达 式 标 志 ， 你 必须 要 么 使 用 RegexObject 做 第 一 个 参 
数 ， 或 用 使 用 模式 内 诅 修 正 器 ， 如 sub("(?i)b+", "x", "bbbb BBBB") returns x x'。 


常见 问题 


正则 表达 式 对 一 些 应 用 程序 来 说 是 一 个 强大 的 工具 ， 但 在 有 些 时 候 它 并 不 直观 而 且 有 时 它们 
不 按 你 期 望 的 运行 。 本 节 将 指出 一 些 最 容易 犯 的 常见 错误 。 


使 用 字符 串 方式 


有 时 使 用 re 模块 是 个 错误 。 如 果 你 匹配 一 个 国定 的 字符 串 或 单个 的 字符 类 ， 并 且 你 没有 使 用 
re 的 任何 象 IGNORECASE 标志 的 功能 ， 那 么 就 没有 必要 使 用 正则 表达 式 了 。 字 符 串 有 一 些 
方法 是 对 国定 字符 串 进 行 操 作 的 ， 它 们 通常 快 很 多 ， 国 为 它们 都 是 一 个 个 经 过 优化 的 C 小 循 
环 ， 用 以 代替 大 的 、 更 具 通 用 性 的 正则 表达 式 引 擎 。 


举 个 用 一 个 固定 字符 串 替换 另 一 个 的 例子 ， 如 : 你 可 以 把 "deed" 替换 成 "word"。re.sub() 似 
乎 正 是 胜任 这 个 工作 的 函数 ， 但 还 是 考虑 考虑 replace() 方法 吧 。 注 意 replace() 也 可 以 在 单 
词 里 面 进行 替换 ， 可 以 把 "swordfish" 变 成 "sdeedfish"。 不 过 RE 也 是 可 以 做 到 的 。 (为 了 避 
免 替换 单词 的 一 部 分 ， 模 式 将 写成 \bword\b， 这 是 为 了 要 求 "Word" 两 边 有 一 个 单词 边界 。 这 
是 个 超出 replace 能 力 的 工作 ) 。 

另 一 个 常见 任务 是 从 一 个 字符 囊 中 删除 单个 字符 或 用 另 一 个 字符 来 蔡 代 它 。 你 也 许可 以 用 
re.sub("\n",' ', s) 这 样 来 实现 ， 但 translate() 能 够 实现 这 两 个 任务 ， 而 且 比 任何 正则 表达 式 操 
作 起 来 更 快 。 (translate 需要 配合 string.maketrans 使 用 。 例 如 : import string 后 
'a1b3'.translate(string.maketrans('ab', 'cd')) ) 


总 之 ， 在 使 用 re 模块 之 前 ， 先 考虑 一 下 你 的 问题 是 否 可 以 用 更 快 、 更 简单 的 字符 串 方法 来 解 
决 。 


match() vs search() 


match() 函数 只 检查 RE 是 否 在 字符 串 开 始 处 匹配 ， 而 search() 则 是 扫描 整个 字符 串 。 记 住 这 
一 区 别 是 重要 的 。 记 住 ，match() 只 报告 一 次 成 功 的 匹配 ， 它 将 从 0 处 开始 ; 如 果 匹 配 不 是 从 
0 开始 的 ，match() 将 不 会 报告 它 。 


#!python 

>>> print re.match('super', 'superstition').span() 
(09, 5) 

>>> print re.match('super', 'insuperable') 

None 


另 一 方面 ，search() 将 扫描 整个 字符 串 ， 并 报告 它 找到 的 第 一 个 匹配 。 


#!python 

>>> print re.search('super', 'superstition').span() 
(0, 5) 

>>> print re.search('super', 'insuperable').span() 
(2, 7) 


有 时 你 可 能 倾向 于 使 用 re.match()， 只 在 RE 的 前 面部 分 添加 .* 。 请 尽量 不 要 这 么 做 ， 最 好 采 
用 re.search() 代替 之 。 正 则 表达 式 编 译 器 会 对 RESs 做 一 些 分 析 以 便 可 以 在 查找 匹配 时 提高 处 
理 速 度 。 一 个 那样 的 分 析 机 会 指出 匹配 的 第 一 个 字符 是 什么 ; 举 个 例子 ， 模 式 Crow 必须 从 
"C" 开始 匹配 。 分 析 机 可 以 让 引擎 快速 扫描 字符 串 以 找到 开始 字符 ， 并 只 在 "C" 被 发 现 后 才 开 
始 全 部 匹配 。 


添加 .* 会 使 这 个 优化 失败 ， 这 就 要 扫描 到 字符 串 尾 部 ， 然 后 回溯 以 找到 RE 剩余 部 分 的 匹 
配 。 使 用 re.search() 代替 。 


全 全 
贪 焚 ys 不 贪 焚 


当 重 复 一 个 正则 表达 式 时 ， 如 用 a*， 操 作 结 果 是 尽 可 能 多 地 匹配 模式 。 当 你 试 着 匹配 一 对 对 
称 的 定 界 符 ， 如 HTML 标志 中 的 尖 括 号 时 这 个 事实 经 常 困 扰 你 。 匹 配 单个 HTML 标志 的 模式 
不 能 正常 工作 ， 因 为 * 的 本 质 是 “ 贪 禁 " 的 


#!python 

>>> S = '<html><head><title>Title</title>' 
>>> len(s) 

32 

>>> print re.match('<.*>', s).span() 

(0, 32) 

>>> print re.match('<.*>', s).group() 
<html><head><title>Title</title> 


RE 匹配 在 " &lt;html&gt;" 中 的 "<"，.* 消耗 掉 字 符 串 的 剩余 部 分 。 在 RE 中 保持 更 多 的 

左 ， 虽 然 > 不 能 匹配 在 字符 串 结尾 ， 因 此 正则 表达 式 必 须 一 个 字符 一 个 字符 地 回溯 ， 直 到 它 
找到 > 的 匹配 。 最 终 的 匹配 从 "<html" 中 的 "<" 到 "<jtitle>" 中 的 ">", 这 并 不 是 你 所 想 要 的 结 
果 。 


在 这 种 情况 下 ， 解 决 方案 是 使 用 不 贪 禁 的 限定 符 *3、+3、?3 或 {m,n}?， 尽 可 能 匹配 小 的 文 
本 。 在 上 面 的 例子 里 ，">" 在 第 一 个 "<" 之 后 被 立即 尝试 ， 当 它 失 败 时 ， 引 擎 一 次 增加 一 个 字 
符 ， 并 在 每 步 重 试 ">"。 这 个 处 理 将 得 到 正确 的 结果 : 


#!python 
>>> print re.match('<.*?>', s).group() 
<html> 


注意 用 正则 表达 式 分 析 HTML 或 XML 是 痛苦 的 。 变 化 混乱 的 模式 将 处 理 常 见 情况 ， 但 HTML 
和 XML 则 是 明显 会 打破 正则 表达 式 的 特殊 情况 ; 当 你 编写 一 个 正则 表达 式 去 处 理 所 有 可 能 的 
情况 时 ， 模 式 将 变 得 非常 复杂 。 象 这 样 的 任务 用 HTML 或 XML 解析 器 。 


不 用 re.VERBOSE 


现在 你 可 能 注意 到 正则 表达 式 的 表示 是 十 分 紧凑 ， 但 它们 非常 不 好 读 。 中 度 复 杂 的 REs 可 以 
变 成 反 斜 杠 、 圆 括号 和 元 字符 的 长 长 集合 ， 以 致 于 使 它们 很 难 读 懂 。 


在 这 些 REs 中 ， 当 编译 正则 表达 式 时 指定 re.VERBOSE 标志 是 有 帮助 的 ， 因 为 它 允 许 你 可 
以 编辑 正则 表达 式 的 格式 使 之 更 清楚 。 


re.VERBOSE 标志 有 这 么 几 个 作用 。 在 正则 表达 式 中 不 在 字符 类 中 的 空白 符 被 忽略 。 这 就 意 
味 着 象 dog | cat 这 样 的 表达 式 和 可 读 性 差 的 doglcat 相同 ， 但 [a b] 将 匹配 字符 "a"、"b" 或 
空格 。 另 外 ， 你 也 可 以 把 注释 放 到 RE 中 ; 注释 是 从 "#" 到 下 一 行 。 当 使 用 三 引号 字符 串 时 ， 
可 以 使 REs 格式 更 加 干净 : 


#!python 

pat = re.compile(r™""" 

NSt # Skip leading whitespace 
(?P<header>[^:]+) # Header name 

NS # Whitespace, and a colon 
(?P<value>.*?) # The header's value -- *? Used to 
# lose the following trailing whitespace 

NS*$ # Trailing whitespace to end-of-line 


""", re.VERBOSE) 


这 个 要 难 读 得 多 : 


#!python 
pat = re.compile(r"\s*(?P<header>[^:]+)\s*:(?P<value>.*?)\s*$") 


有 反馈 


正则 表达 式 是 一 个 复杂 的 主题 。 本 文 能 否 有 助 于 你 理解 呢 ? 哪些 部 分 是 否 不 清晰 ， 或 在 这 儿 
没有 找到 你 所 遇 到 的 问题 ? 如 果 是 那样 的 话 ， 请 将 建议 发 给 作者 以 便 改 进 。 


描述 正则 表达 式 最 全 面 的 书 非 Jeffrey Fried| 写 的 《精通 正则 表达 式 》 英 属 ， 该 书 由 O'Reilly 出 
版 。 可 惜 该 书 只 专注 于 Perl 和 Java 风格 的 正则 表达 式 ， 不 含 任何 Python 材料 ， 所 以 不 足以 
用 作 Python 编 程 时 的 参考 。 (第 一 版 包含 有 Python 现 已 过 时 的 regex 模块 ， 自然 用 处 不 

大 ) 。 


《精通 正则 表达 式 》 第 三 版 已 经 有 部 分 正则 表达 式 使 用 python 说 明 ， 另 外 PHP 风 格 的 更 是 独 
立 一 个 章节 说 明 。--why? 


